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基于 核心 作者 研究 兴趣 相似 性 网 络 的 社 群 隶属 研究 
以 国内 情报 学 领域 为 例 
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!' 武汉 大 学 信息 资源 研究 中 心 ”武汉 430072 “华中 师范 大 学 信息 管理 学 院 ”武汉 430079 


摘要 :[ 目的 /意义 ] 构建 情报 学 领域 核心 作者 研究 兴趣 相似 性 网 络 ,研究 该 网 络 的 社 群 结构 与 社 群 未 属 问 
题 。[ 方 法 过程] 在 CSSCI 数据 库 以 中 图 分 类 号 为 检索 条 件 , 下 载 该 学 科 1998 -2015 年 所 有 的 论文 数据 ,通过 
普 莱 斯 定律 识别 核心 作者 。 将 作者 研究 兴趣 用 词 袋 模型 表示 ,并 计算 作者 间 研 究 兴 趣 的 余弦 相 似 性 ,进而 构建 
核心 作者 研究 兴趣 相似 性 网 络 。 在 此 基础 上 进行 社 群 划分 并 识别 各 社 群 研究 主题 ,计算 作者 对 各 社 群 的 隶属 
度 与 模糊 粹 。[ 结果 /结论 ] 研究 发 现 ,当前 我 国情 报 学 研究 可 分 为 信息 组 织 与 检索 文献 计量 与 科学 评价 竞争 
情报 与 知识 管理 情报 学 学 科 整 体 研究 4 个 领域 ,大 部 分 作者 研究 并 不 局 限于 单个 领域 ,竞争 情报 和 文献 计量 
领 减 界限 明显 , 较 少 有 作者 将 彼此 作为 次 要 隶 属 社 群 。 
CN 关键 词 : 研究 兴趣 ”网络 情报 学 社 群 来 属 度 相似 性 
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展 社 群 结构 与 社 群 隶属 研究 。 本 文 重点 关注 以 下 问 


题 :情报 学 领域 核心 作者 研究 兴趣 相似 性 网 络 有 哪些 
探查 学 科 中 作者 社 铬 结构 ,可 以 把 握 其 领域 分 布 。 特征 ? 各 个 社 群 研究 主题 是 什么 ? 核心 作者 对 不 同 社 


及 未 来 发 展 方向 ,对 科研 活动 的 管理 ,组 织 与 协调 具有 群 的 隶属 度 分 布 模式 是 怎么 样 的 ? 不 同 社 群 之 间 是 否 


重要 意义 。 社 群发 现 方法 惑 是 从 复杂 网 络 中 发 现 具有 ”有 关联 ,关联 模式 如 何 ? 通过 对 上 述 问题 的 回答 ,以 其 
模 狗 结构 特性 的 群体 ,进而 发 现 社 群 随时 间 变 化 的 趋 ”为 相关 研究 提供 借鉴 与 参考 。 
势 \ 产 律 与 动因 "1 。 该 方法 在 学 科 结 构 分 析 中 具有 广 


泛 移 应 用 。 直 观 来 看 ,核心 作者 的 研究 兴趣 对 学 科 发 ” ED 绝 


展 多 向 具有 重要 影响 ,因此 从 其 研究 兴趣 角度 揭示 学 ”2.1 情报 学 学 科 结构 分 析 


科 结 构 .研究 热点 相 比 其 他 方法 来 讲 更 具有 一 定 优势 。 关于 情报 学 领域 结构 的 分 析 存 在 两 种 研究 思路 : 
为 此 ,笔者 将 学 科 的 社 群 结构 定义 为 由 研究 兴趣 相似 。 定性 研究 和 定量 研究 ,前 者 依靠 作者 对 学 科 整 体 情况 
的 若干 作者 组 成 的 群体 。 的 宏观 把 握 , 重 点 关注 范式 归纳 ” 、 基 本 原理 总 结 ”、 

传统 的 社 群 发 现 方法 均 遵 循 每 一 个 节点 都 叭 一 ”阶段 划分 等 问题 ,这 类 研究 属于 思辩 性 研究 。 后 者 
归属 于 某 个 社 群 ”的 假设 ,而 在 现实 社会 网 络 中 ,人 们 多 利用 文献 计量 学 .社会 网 络 分 析 方法 深入 挖掘 文献 
往往 同时 归属 于 不 同 的 社 群 ,这 些 人 往往 又 是 信息 传 ”数据 中 的 研究 主题 社 群 结构 ,并 以 可 视 化 的 方式 展现 


递 .社会 交往 中 的 关键 节点 悦 。 同 样 的 问题 也 存在 于 ”结果 。 例如, 张 证 等 中 利用 共 词 分 析 方 法 对 我 国 图 情 
学 术 社 群 研究 中 ,笔者 以 情报 学 为 例 ,通过 识别 该 领域 ”领域 认 知 结构 进行 分 析 与 识别 ,认为 国内 图 书 情报 学 
核心 作者 ,构建 其 研究 兴趣 相似 性 网 络 , 在 此 基础 上 开 ”5 主要 存在 4 个 分 支 :数字 信息 的 组 织 与 管理 .图 书馆 
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学 ,信息 计量 与 评价 和 组 织 知 识 管理 。 马 费 成 等 利 
用 ACA 分 析 我 国 1994 - 2005 年 间 情 报 学 核心 作者 共 
被 引 情 况 , 得 出 国内 情报 学 研究 领域 的 5 个 领域 :早期 
研究 者 .情报 学 理论 ,情报 检索 .图 书馆 学 研究 ,文献 资 
源 建设 。 邱 均 平 ”对 我 国 改革 开放 30 年 来 情报 学 研 
究 论文 的 作者 进行 分 析 , 将 改革 开放 以 来 情报 学 研究 
内 容 划 分 为 竞争 情报 、 信 息 系统 、 文 献计 量 等 8 个 领 
域 。 上 述 研 究 多 利用 共 词 网 络 . 合 著 网 络 . 共 被 引 网 络 
等 从 学 科 整 体 层 面 识别 社 群 主题 , 较 少 有 从 研究 兴趣 


综 上 所 述 , 当 前 关于 研究 兴趣 的 研究 主要 涉及 研 
究 兴 趣 表示 模型 及 相似 性 计算 .研究 兴趣 现象 揭示 两 
方面 。 研 究 兴趣 表示 模型 方面 主要 有 主题 模型 `. 词 袋 
模型 .关键 词 网 络 .关键 词语 义 和 矩阵 4 种 ,研究 兴趣 相 
似 性 计算 方法 与 具体 表示 模型 有 关 , 主要 有 余弦 相似 
度 JACCARD .P-rank JS 距离 等 。 在 研究 兴趣 现象 揭 
示 上 ,当前 研究 主要 有 合 著 与 研究 兴趣 相似 性 的 关系 、 
研究 兴趣 的 发 展演 化 等 。 笔 者 以 情报 学 为 例 ,通过 识 
别 该 领域 核心 作者 生成 其 研究 兴趣 相似 性 网 络 , 对 该 


角度 出 发 开展 领域 结构 识别 的 研究 ,更 少 有 研究 深入 
微观 层面 探讨 学 者 与 社 群 间 隶 属 关系 。 
2.2 研究 兴趣 相关 研究 

兴趣 作为 一 种 心理 活动 ,对 人 们 认 知 倾向 和 实践 


模 更 (Author Topic) 用 于 揭示 作者 研究 兴趣 ,并 探索 该 


网 络 特征 进行 分 析 ,在 此 基础 上 进行 社 群 结构 分 析 , 计 
算 各 作者 对 各 社 群 的 隶属 度 , 分 析 各 社 群 之 间 的 关联 。 


3 ”研究 方法 


3.1 研究 思路 与 研究 过 程 

从 前 文 可 知 , 社 群 分 析 中 将 节点 唯一 的 划分 到 一 
个 社 群 中 有 其 不 合理 之 处 。 同 样 在 科研 领域 ,研究 人 
员 的 研究 兴趣 也 很 少 限定 于 某 个 领域 ,而 是 按照 一 定 
的 程度 同时 隶属 于 多 个 学 术 社 群 。 笔 者 借鉴 文献 ”中 
的 计算 思路 ,首先 对 网 络 进行 社 群 划分 ,然后 计算 各 个 
作者 对 各 个 社 群 的 隶属 程度 。 具 体 研 究 过 程 分 为 数据 
获取 与 处 理 、 研 究 兴 趣 相似 性 网 络 构建 、 社 群 识别 与 隶 


模型 在 主题 演变 趋势 分 析 、 作 者 主题 关联 分 析 、 作 者 蜡 
常 座 文 检测 等 方面 的 应 用 ; 李 树 青 等 "" 以 向 量 空间 模 
型 芍 兴 趣 基本 表达 结构 ,并 采用 时 间 片 震荡 算法 发 现 
八 主要 的 研究 兴趣 特征 ,开展 便携 式 个 性 化 服务 研 
究 红 | 涯 等 "通过 向 量 空间 模型 计算 关键 词 间 关 联 ， 
并 科 用 P-Rank 算法 计算 两 个 作者 关键 词 网 络 的 结构 
相似 度 ; 巴 志 超 等 5 引入 word2vec 模型 对 作者 关键 词 
矩阵 进行 语义 建 模 ,计算 两 个 作者 研究 兴趣 矩阵 的 JS 
距离 作为 其 兴趣 的 相似 性 ,并 通过 到 类 算法 将 研究 兴 
趣 相似 的 作者 珍 类 形成 类 团 。 

在 研究 兴趣 现象 揭示 方面 ,李纲 等 "使 用 词 袋 模 
型 表示 作者 研究 兴趣 ,通过 合 著作 者 研究 兴趣 之 间 的 
相似 性 ,分 析 了 不 同学 科 不 同 产量 的 合 著作 者 研究 兴 
趣 相似 性 频率 分 布 模式 。 研 究 发 现 ,不 同学 科 的 作者 
在 寻找 合作 伙伴 时 ,在 研究 兴趣 相似 程度 的 倾向 性 的 
分 布 规律 上 具有 一 致 性 , 即 随 相似 度 升 高 , 先 升 高 后 减 
小 。 而 高 产 作者 更 倾向 于 寻找 研究 兴趣 更 相似 的 作者 
进行 合 著 。 关 鹏 等 "结合 生命 周期 理论 与 作者 主题 
模型 对 CNKI 数据 库 内 锂电 池 领 域 作者 研究 兴趣 演化 
方式 进行 了 分 析 。 研 究 发 现 ,核心 作者 的 研究 兴趣 演 
化 趋势 与 相应 的 主题 演化 趋势 一 致 时 ,能 够 引领 该 研 
究 主题 的 发 展 。 
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属 度 计 算 三 个 步骤 ,如 图 1 所 示 : 


1 
1 
1 
1 | [研究 兴起 相公 
字段 识别 性 计算 
| aa 分 | 
[ssc 数据库 | 一 一 ”| 作者 消 歧 | 入 过 组 相公 性 
\ \ 1 作者 福 司 于 局 
上 | 二 而 天 到 Ee 
核心 作者 选择 | ! || 构建 研究 兴趣 
相似 性 网 络 
数据 获取 与 。“! 研究 兴趣 相似 性 ”| 社 群 识别 与 隶属 
处 理 过 程 。 ”| ， 网络 构建 过 程 度 计算 过 程 


图 1 本 文 研究 过 程 


3.2 数据 获取 与 处 理 

数据 获取 与 处 理 主 要 包括 以 下 步骤 :数据 下 载 . 字 
段 识 别 .作者 消 卜 核心 作 者 选择 。 数 据 源 为 南京 大 学 
社会 科学 引文 索引 数据 库 ,检索 条 件 为 "中 图 分 类 号 = 
G35”。 使 用 Java 程序 从 该 题 录 数 据 中 抽取 出 题目 \ 作 
者 .作者 单位 .期刊 名 称 ,关键 词 .期 刊 名 等 字段 并 将 之 
存 入 到 数据 库 中 。 为 保证 数据 分 析 的 准确 性 ,作者 消 
歧 过 程 采用 系统 消 歧 与 人 工 校对 相 结 合 的 方式 。 具 体 
步骤 如 下 :首先 将 “姓名 + 作者 一 级 单位 ”的 作者 判定 
为 同一 位 作者 ,其 次 人 工 逐 个 分 析 姓 名 相同 而 单位 不 
同 的 情况 ,根据 实际 情况 对 这 些 作者 进行 合并 。 为 保 
证 作者 间 兴 趣 相似 性 计算 过 程 中 的 作者 关键 词 数目 的 
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minay 


chinggiv 合 作 期 乔 
以 国内 情报 学 读 拭 大 倒 [中 图 书 导 报 


数量 ,笔者 拟 以 学 科 核 心 作者 作为 研究 对 象 构建 网 络 。 
根据 普 莱 斯 定律 "” ,将 发 文 量 等 于 以 及 大 于 N 篇 的 作 
者 为 某 领域 的 核心 作者 ,N 的 计算 公式 见 公式 (1) : 
N=0.749 x (nm,.) 公式 (1) 
其 中 mw 表示 该 领域 发 文 量 最 大 的 作者 文章 数 
目 ,在 本 数据 集中 ,发 文 量 最 高 的 为 武汉 大 学 印 均 平 教 
授 ,其 发 文 198 篇 ,此 时 N 取 值 为 10. 384。 由 此 ,本 数 
据 集中 发 文 量 大 于 等 于 11 的 作者 均 为 核心 作者 ,共有 
220 位 。 
3.3 “研究 兴趣 相似 性 网 络 构建 
研究 兴趣 相似 性 网 络 以 作者 为 网 络 节点 ,以 作者 
间 的 研究 兴趣 相似 度 为 边 权重 ,其 构建 过 程 主要 包括 
以 下 步 又 :研究 兴趣 相似 性 计算 、 强 相似 性 第 选 . 研 究 
尖 地 相 似 性 网 络 构建 。 
EJ 本 文 使 用 的 研究 兴趣 相似 性 计算 方法 可 参考 文献 
[ {加 中 利用 合 著 双 方 作者 私有 关键 词 集 的 余弦 相似 
广 篇 法 ,该 计算 方法 可 以 有 效 去 除 合 著 对 研究 兴趣 相 
似 牙 计算 的 影响 。 在 计算 相似 度 之 前 ,要 先 计算 各 关 
键 词 的 逆 文 档 频率 ( 具体 计算 过 程 见 公式 2) 。 在 公式 
(多 ,ks 是 一 个 关键 词 ,WN 为 文档 总 数 ,df() 为 关 
键 语 在 多 少 文档 中 出 现 。 
A 二 7 计 公式 (2) 
:三 假设 有 AB 两 位 作者 , 则 P(A)、P(B) 分 别 代表 
你 作者 发 表 文献 的 集合 。 若 A 与 B 曾 发 生 过 合 著 
关 索 , 则 分 别 从 P(A) .P(B) 中 剔除 两 者 合 著 文献 集 
人 5 生成 A\B 两 者 私有 文献 集合 P(A) .P(B) 。 此 
时 (A 是 文档 集 P( A) 形成 的 关键 词 列表 ,N,(k;) 和 
Ns(k;) 表 示 关键 词 k; 在 K, 与 Ks 中 出 现 的 次 数 ,最 终 
的 研究 兴趣 相似 性 计算 见 公式 (3 ) 。 通 过 两 两 计算 核 
心 作者 的 研究 兴趣 相似 性 ,可 以 得 到 作者 相似 性 矩阵 。 
sim(A,B) = 
Wa Ck) xW,(k;) xidf (k,) 
Mi Wk) xid(k)) x Walki) xid(k:)) 
公式 (3) 
直观 看 来 ,两 位 作者 发 文中 共同 使 用 过 一 个 单 
词 ,其 相似 性 也 不 为 零 。 使 得 这 样 生成 的 网 络 必定 
很 密集 ,此 时 需要 进行 剪 枝 操作 ,剔除 权重 较 低 的 
边 。 此 时 ,需要 根据 一 定 策略 对 网 络 中 作者 之 间 的 
边 进行 筛选 。 为 便于 后 续 社 群 分 析 , 将 研究 兴趣 相 
似 性 矩阵 进行 剪 枝 ,并 将 该 网 络 保存 为 Cephi 分 析 的 
数据 格式 。 


) ln(1 +N,,) 


3.4 社 群 识别 与 隶属 度 计算 
在 研究 兴趣 相似 性 网 络 构建 完成 后 , 即 可 使 用 网 
络 划 分 方法 对 该 学 科研 究 领域 进行 划分 ,进而 计算 作 
者 对 社 群 的 隶属 度 。 该 过 程 主要 包括 以 下 步骤 : 社 群 
结构 识别 ,作者 - 社 群 隶 属 度 计算 .基于 社 群 隶属 度 的 
模糊 粹 计算 等 。 本 文 社 群 划分 方法 使 用 Louvain 算 
法 "" ,该 方法 可 以 快速 处 理 具有 数 亿 节点 的 网 络 , 利 
用 Gephi 软件 将 网 络 中 核心 作者 划分 到 不 同 社 群 中 。 
学 者 的 研究 兴趣 在 不 同 阶段 会 发 生变 化 ,同时 不 同 领 
域 之 间 存 在 关联 与 交叉 的 部 分 ,这 使 得 很 多 作者 的 研 
究 兴 趣 跨越 两 个 甚至 更 多 领域 "。 因 而 ,笔者 引入 模 
糊 数 学 中 “隶属 度 ” 的 概念 来 表示 作者 研究 兴趣 在 不 
同 社 群 中 的 分 布 ,以 解决 作者 唯一 地 归属 某 社 群 的 问 
题 。 此 处 定义 作者 对 社 群 的 隶属 度 为 作者 对 各 个 社 群 
相似 度 的 归 一 化 结果 ,具体 计算 方法 见 公 式 (4) : 
Similarity (A,,C,) 
SSimilarity( A,,C,) 
学 者 对 不 同 社 群 的 隶属 度 可 以 看 作 其 研究 兴趣 的 
离散 分 布 ,因此 可 以 使 用 该 分 布 的 炉 表 示 该 作者 研究 
兴趣 的 分 散 程 度 。 炉 的 概念 最 初 来 自 物理 学 领域 ,在 
信息 领域 经 常用 于 表示 信息 量度 量 ,用 于 表示 信息 源 
的 不 确定 性 ,基于 社 群 隶属 度 的 模糊 炉 计 算 过 程 见 公 
Entropy( A,) = -> membership( A,, C,) xlog (mem- 
bership( A,,C,) ) 公式 (5) 
在 公式 (5 ) 中 ,n 表示 社 群 数目 ,在 本 研究 中 ,n 取 
值 为 4。 当 作者 的 研究 兴趣 均衡 的 分 布 在 各 个 社 群 中 
时 ,此 时 其 研究 兴趣 比较 分 散 , 很 难 确定 作者 的 主要 研 
究 兴 趣 , 此 时 , 炉 值 较 大 。 


4 实验 结 


4.1 原始 数据 描述 

截至 笔者 下 载 该 数据 集 时 ,该 数据 库 中 2016 年 论 
文 数据 还 未 被 完全 收录 , 故 从 中 下 载 1998 - 2015 年 间 
的 全 部 14 530 篇 文章 题 录 数 据 。 经 统计 数据 集 共 来 
自 257 种 期 刊 ,其 中 ,人 《情报 杂志 兴 情 报 科学 兴 情 报 理 
论 与 实践 兴 图 书 情报 工作 兴 情 报 学 报 2 家 期 刊 位 列 
载 文 量 前 5 位 。 从 第 一 作者 发 文 单位 来 看 ,武汉 大 学 、 
南京 大 学 .中 信和 所 吉林 大 学 ,北京 大 学 排名 前 5 位 。 
4.2 研究 兴趣 相似 性 网 络 特征 分 析 

核心 作者 研究 兴趣 相似 性 网 络 以 作者 为 网 络 节 
点 ,以 作者 间 的 研究 兴趣 相似 度 为 边 权 重 。 据 统计 该 


i 


membership( 4.,, Ci 站 二 


公式 (4) 
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网 络 共 包含 220 个 节点 ,18 525 条 边 , 网络 密度 为 
0.769。 这 说 明 该 网 络 中 连接 线 较 密集 , 社 群 识别 难度 
较 大 ,需要 对 该 网 络 进行 剪 枝 。 作 者 研究 兴趣 相似 度 
是 连续 型 变量 ,其 值 介 于 0 到 1 之 间 。 将 该 连续 性 数 
值 进行 离散 化 操作 ,划分 为 100 组 ,组 距 为 0.01 ,组 数 


为 20。 研 究 兴趣 相似 性 最 大 的 两 位 作者 是 赵 筱 媛 与 
陈 峰 ,二 人 研究 方向 均 是 产业 竞争 情报 。 对 情报 学 
220 位 核心 作者 形成 的 研究 兴趣 相似 性 网 络 的 边 权重 
进行 具 律 分 布 拟 合 ,如 图 2 所 示 : 


人 边 数 目 
晴 律 分 布 拟 合 曲线 
5000 上 * ”实际 边 数目 
4000 上 
3000 上 
2000 上 
\ * 
>> 1000 上 - 
GN 从 
(O eh ON 
| ~ 上 
AM 0 0.05 0.1 0.15 02 0.25 03 0.35 0.4 0.45 
© 0.041 研究 兴趣 相似 性 
四 图 2 核心 作者 研究 兴趣 相似 性 网 络 边 权 重 震 律 分 布 拟 合 


〇 从 图 2 中 可 以 看 出 ,核心 作者 间 研 究 相 似 性 频率 
律 分 布 高 度 重合 ,对 其 频率 分 布 进行 回归 分 析 ,得 
到 得 似 性 ( 记 为 x) 的 分 布 密度 函数 为 公式 (6) 。 此 时 
对 剖 完 兴趣 相似 性 网 络 进行 剪 枝 处 理 ,根据 “一 八 定 
律 之 需要 别 除 权重 较 低 的 80% 的 边 。 在 实际 操作 中 ， 
述 托 完 定 义 0.041 为 相似 性 强 弱 的 分 界 点 , 仅 保留 大 
于 外 重大 于 0.041 的 边 进行 分 析 。 剪 枝 后 的 节点 共 包 
Er 个 节点 ,4 563 条 边 , 此 时 网 络 密度 0. 189。 
O f(x) =0.4018 xx 公式 (6) 
4.3 ”各 个 社 群 研究 主题 分 析 
使 用 Gephi 软件 对 剪 枝 后 的 网 络 进行 模块 度 计 
算 ,设置 Resolution 为 默认 值 1.0 ,得 到 情报 学 研究 兴 
趣 相似 性 网 络 可 以 分 为 4 个 社 群 ,模块 度 为 0.347。 相 
关 研 究 表明 ,模块 度 值 在 0.3 -0.7 时 网 络 中 会 出 现 较 
强 的 社 群 结构 "5 。 社 群 识别 结果 见 图 3。 

得 到 的 情报 学 领域 所 有 作者 被 聚集 成 4 个 社 群 ， 
分 别 记 为 C1.C2.C3 .C4, 网 络 中 节点 大 小 设置 为 作者 
发 文 量 。 从 图 3 中 可 以 看 出 ,这 4 个 社 群 之 间 界 限 并 
不 分 明 , 发 文 量 较 大 的 作者 一 般 位 于 社 群 交界 处 ,这 些 
作者 研究 兴趣 较为 广泛 ,是 各 个 社 群 沟通 交流 的 关键 
节点 。 由 于 本 文 是 将 研究 兴趣 相似 的 作者 群体 进行 聚 
类 的 ,因此 识别 出 的 社 群 应 该 拥有 各 自 的 研究 主题 ,而 
不 同 社 群 间 研 究 主题 过 异 。 笔 者 为 进一步 探究 各 社 群 
研究 主题 ,分 别 绘制 各 社 群 作 者 所 著 文献 高 频 关键 词 
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C2 社 群 
a 


C1 社 群 


图 3 社 群 划分 可 视 化 结果 


共 现 网 络 ,分 别 如 图 4 至 图 7 所 示 : 


4 社 群 Cl 高 频 关 键 词 共 现 网 络 


徐 健 ， 毛 进 ， 叶 光辉 ,等 . 基于 核心 作者 研究 兴趣 相似 性 网 络 的 社 群 隶属 研究 


工作 ,2018 ,62(12 ) :57 - 64. 


”Yi 人 
(Mm 


C hina 企 革 月 干 | 
以 国内 情报 ol Wa 中 你 期 所 


C1 社 群 作者 主要 研究 包括 信息 组 织 \ 信 息 检 索 、 
本 体 、 数 据 挖掘、 可 视 化 .语义 检索 在 内 的 信息 处 理 技 
术 ,该 领域 作者 有 86 位 , 约 占 核 心 作者 总 数 的 39% ,是 
情报 学 领域 的 主流 研究 群体 。 该 领域 技术 性 较 强 ,与 
计算 机 科学 信息 系统 等 领域 研究 交叉 较 多 ,是 情报 学 
领域 最 具 特 色 的 领域 之 一 。 这 些 方法 与 技术 在 当今 大 
数据 时 代 背 景 下 仍然 具有 较 强 的 解决 问题 的 能 力 ,未 
来 该 方向 的 研究 可 更 多 结合 人 工 智能 技术 ,不 断 实现 
技术 上 的 创新 。 


SS 
4 


X 
| 


C9 5 ” 社 群 C2 高 频 关键 词 共 现 网 络 


GDc2 社 群 作者 主要 研究 竞争 情报 ,该 领域 研究 起 源 
了 20 世纪 80 年 代 ,在 情报 学 中 占据 重要 地 位 。 竞 争 
环 阐 .竞争 对 手 和 竞争 策略 是 竞争 情报 的 三 大 要 素 。 
当前 该 领域 研究 主要 集中 在 竞争 情报 与 知识 管理 的 关 
夭 > 皮 竞争 情报 ,竞争 情报 技术 与 系统 产业 (企业 ) 竞 
争 层 报 等 方 面 。 

-三 C3 社 群 作 者 主要 研究 文献 计量 与 科学 评价 问题 ， 
该 绒 域 发 展 历 经 书目 统计 文献 计量 ,信息 计量 、 网 络 计 
量 等 阶段 。 文 献计 量 是 情报 学 定量 研究 的 重要 内 容 ， 
具有 悠久 的 发 展 历史 ,相继 出 现 了 文献 计量 学 .科学 计 
量 学 ,信息 计量 学 .网 络 计量 学 .知识 计量 学 ,可 以 统称 
为 “五 计 学 "。 目 前 ,替代 计量 学 (Altmetics) 是 国际 计量 
学 领域 的 热点 问题 ,目前 得 到 了 国内 学 界 的 普遍 关注 。 


= 


un 


EH 


文献 计量 
社会 网 络 分 析 ~ 


关 性 
网 络 信息 资源 


AL 
2 


信息 科学 


7 社 群 C4 高 频 关 键 词 共 现 网 络 


C4 社 群 作者 以 情报 学 学 科 整 体 为 研究 对 象 ,重点 
研究 情报 学 理论 .学 科 边 界 与 发 展 ,发 现 本 学 科 与 信息 
科学 ,图 书馆 学 等 相关 学 科 的 关联 。 同 时 ,该 社 群 的 关 
键 词 包含 了 文献 计量 信息 检索 .竞争 情报 在 内 其 他 社 
群 的 高 频 关 键 词 。 这 说 明 ,竞争 情报 文献 计量 、 信 息 
念 索 等 作为 情报 学 领域 的 子 领 域 , 其 研究 与 学 科 的 整 
体 研 究 紧密 相关 。 

表 1 社 群 识别 基础 描述 性 统计 结果 ,包括 各 社 群 
网 络 节点 数目 、 强 相似 性 边 数目 、 密 度 、 代 表 作者 。 


表 1 社 群 识别 基础 描述 性 统计 结果 


社 群 编号 。 节点 数目 社 群 内 强 相似 数目 社 群 密度 代表 作者 (发 文 量 :篇 ) 
Cl 86 703 0. 192 毕 强 (57) 陆 伟 (40) 张 晓 林 (40) 甘 利 人 (40) 周 宁 (35) 贾 君 校 (35) 
C2 46 744 0.719 张 玉 峰 (88 ) 李 纲 (64) 郑 彦 宁 (59 ) 王 日 芬 (44) 彭 靖 里 (42 ) 靖 继 鹏 (40 ) 
C3 54 512 0.358 最 均 平 (198 ) 朱 庆 华 (74) 冷 伏 海 (69) 苏 新 宁 (57) 孙 建 军 (53) 赵 获 英 (49) 
C4 34 439 0.783 王 知 津 (129 ) 赖 茂生 (52) 马 费 成 (45 ) 马 海 群 (43 ) 成 颖 (33 ) 梁 战 平 (30 ) 
整体 220 4 563 0. 189 


从 表 1 中 可 以 看 出 ,各 社 群 内 部 研究 兴趣 相似 性 
网 络 的 密度 均 高 于 平均 密度 ,其 中 Cl 社 群 网 络 密度 较 
低 ,说 明 该 社 群 研究 范围 比较 广泛 ,与 其 他 学 科 有 较 多 


交叉 ,存在 进一步 划分 的 可 能 。 从 上 文中 可 以 看 出 , 笔 
者 识别 出 4 个 社 群 的 研究 并 非 完全 隔绝 ,而 是 互相 渗 
透 与 借鉴 。 


61 


图 二 情报 三 作 


第 62 卷 第 12 期 2018 年 6 月 


ChinaX iv 人 全 作 期 天 | 


4.4 ”核心 作者 社 群 隶属 度 分 析 

由 前 文 可 知 ,作者 与 社 群 并 非 一 一 对 应 的 ,一 个 作 
者 在 其 研究 的 不 同 阶段 其 研究 兴趣 可 能 发 生变 化 。 因 
此 ,笔者 引入 隶属 度 的 概念 ,计算 作者 与 社 群 及 与 各 个 
社 群 研究 的 归属 关系 ,并 据 此 计算 反映 作者 兴趣 分 散 
程度 的 模糊 焙 。 部 分 作者 对 各 个 社 群 的 隶属 情况 如 表 
2 所 示 : 

表 2 作者 - 社 群 隶属 度 


基于 社 群 隶属 度 


姓名 ”C1l 隶属 度 C2 隶属 度 C3 隶属 度 C4 隶属 度 es 
的 模糊 炉 
艺 均 平 ”0.12 0.15 0.52 0.21 1.90 
王 知 津 ” 0.12 0.25 0.14 0.48 1.93 
张 玉 峰 ”0.24 0.49 0.13 0.14 1.93 


汪 表 2 中 每 行 分 别 对 应 作者 对 不 同 社 群 的 隶属 度 以 

及 机 精 。220 位 核心 作者 隶属 度 最 高 的 社 群 均 为 前 
双开 群 划分 结果 完全 一 致 。 基 于 社 群 隶属 度 的 模糊 炳 
民 融 了 作者 研究 兴趣 的 分 散 程度 。 在 本 研究 的 所 有 作 
若 旧 ,大 连理 工大 学 的 王 贤 文 模糊 丧 , 最 小 为 1.39, 对 
C8 别 群 的 求 属 度 高 达 80% ,其 研究 主要 集中 在 文献 计 
量 合 科学 评价 领域 。 安 徽 大 学 储 节 旺 模糊 粹 最 大 ,为 
2 0 ,对 所 属 社 群 C1 的 隶属 度 仅 为 36. 4% ,其 研究 广 
这 和 沸 竞 争 情报 文献 计量 等 领域。 此 外 ,笔者 给 会 制 了 

226 核 心 作者 模糊 恼 的 频次 分 布 折 线 , 如 图 8 所 示 ; 


PN 45| 作者 数 

-a 

Dd | 

€ | 

a 

C9 | 

多 20 上 / 

天 
15 上 2 
10r 
$F 
1.4 1 1.6 1 1.8 1.9 过 


模糊 炉 


8 ”模糊 业 核 心 作 者 人 数 分 布 


从 图 8 中 可 以 看 出 ,情报 学 领域 核心 作者 兴趣 隶 
届 模 糊 箭 集中 在 1.6 -2 之 间 , 这 说 明 当前 大 部 分 研究 
者 研究 范围 涉及 多 个 领域 。 这 种 情况 的 产生 可 能 有 两 
个 原因 :中 学 者 研究 兴趣 会 随 科 学 研究 的 进展 而 发 4 
变化 ;@@ 现 阶段 越 来 越 多 研究 需要 多 个 学 科 协 同 开展 
因此 作者 需要 同时 涉猎 多 领域 的 知识 。 对 核 , 作者 按 
照 模 糊 精 大 小 进行 分 组 ,得 到 各 组 作者 平均 发 文 量 见 
图 9。 

从 图 9 中 可 以 看 出 ,作者 平均 发 文 量 与 模糊 炉 呈 


mT 
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jf 平均 发 文 量 
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30r 

25| 

20r 
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模糊 彤 


图 9 基于 模糊 业 分 组 的 作者 平均 发 文 量 


正 相关 关系 。 这 说 明 ,高 产 作者 的 研究 兴趣 一 般 比 较 
广泛 ,研究 方向 较为 分 散 。 各 社 群 成 员 对 各 社 群 的 平 
均 隶 属 度 如 图 10 所 示 : 


对 C1 平均 隶属 度 
0.60 


对 C4 平均 隶属 度 < < 全 


对 C3 平均 隶属 度 


图 10 各 社 群 作者 对 各 社 群 平均 隶属 度 雷 达 示 意 


从 图 10 中 可 以 看 出 ,各 社 群 作者 对 各 自 所属 社 群 
的 隶属 度 平 均值 均 位 于 0.5 -0.6 之 间 , 对 其 他 社 群 隶 
属 度 的 均值 位 于 0.1 -0.2 之 间 。 各 社 群 作者 模糊 信 
均值 位 于 1.8 -1.9 之 间 , 这 说 明 各 社 群 作者 研究 兴趣 
分 散 程度 较 一 致 ,差异 不 大 。 
4.5 ”作者 次 要 隶属 社 群 分 析 

从 前 文 可 知 ,作者 按照 一 定 隶 属 度 归 属于 某 个 社 
群 ,由 此 可 以 对 单个 作者 重生 的 多 个 社 群 进行 排序 。 
在 此 ,定义 作者 的 次 要 求 属 社 群 为 作者 隶属 度 第 二 大 
的 社 群 ,本 部 分 重点 关注 不 同 社 群 作者 的 次 要 隶属 社 
群 ,以 此 发 现 社 群 之 间 的 关联 关系 。 各 社 群 作者 的 次 
要 隶属 社 群 分 布 如 表 3 所 示 : 

表 3 各 社 群 次 要 隶属 社 群 比例 


社 群 编号 该 社 群 用 户 第 二 兴趣 
Cl C4(41% )C3(33% )C2(26% ) 
C2 C4(59% )C1(26% )C3(15% ) 
03 C4(46% )C1(41% )C2(13% ) 
C4 C3(39% )C1(32% )C2(29% ) 


从 表 3 中 可 以 看 出 ,C1-C3 社 群 的 作者 均 将 C4 社 
群 研究 主题 作为 自己 的 次 要 隶属 社 群 。 从 前 文 可 知 ， 
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C1 社 群 作者 以 信息 组 织 与 检索 为 主 ,C2 社 群 作者 以 
竞争 情报 为 主 , C3 社 群 以 文献 计量 与 科学 评价 为 主 。 
在 情报 学 中 ,这 三 个 研究 领域 的 研究 方法 与 范式 过 异 ， 
边界 比较 明显 ,而 C4 领域 着 腿 于 情报 学 层面 ,其 研究 
视角 和 层次 均 要 高 于 其 他 社 群 ,同时 该 社 群 与 其 他 三 
个 社 群 又 有 紧密 联系 。 同 时 ,笔者 还 注意 到 C2 社 群 和 
03 社 群 的 作者 很 少将 彼此 作为 自己 的 次 要 隶属 社 群 。 
竞争 情报 领域 作者 研究 注重 理论 与 实践 结合 ,具有 和 较 
强 的 应 用 价值 ,而 文献 计量 与 科学 评价 领域 作者 更 注 
重 研 究 问题 的 学 术 性 ,偏重 于 数据 分 析 方法 与 实验 结 
果 , 其 研究 更 学 术 化 一 些 。 上 述 原因 导致 这 两 个 社 群 
之 间 关 联 度 较 低 ,交叉 领域 较 少 ,这 与 图 5 中 社 群 可 视 
化 结果 C2 与 C3 社 群 相互 间距 离 较 远 的 情形 比较 吻 


ON 关于 重 释 社 群 的 研究 受到 学 界 的 广泛 关注 ,笔者 
通通 构建 情报 学 领域 研究 兴趣 相似 性 网 络 ,与 社 群 发 
现 得 法 发 现 当前 情报 学 研究 的 4 大 领域 ,利用 各 社 群 
的 历 频 词 共 现 图 谱 得 到 各 自 研究 主题 。 之 后 计算 各 作 
着 和 各 社 群 的 隶属 度 及 模糊 痛 , 将 作者 依据 模糊 寻 分 
级 5 统计 各 组 人 数 及 人 均 发 文 量 。 最 后 ,统计 各 社 群 作 
着 谭 次 要 素 属 社 群 分 布 。 研 究 发 现 :情报 学 核心 作 
者 研究 兴趣 相似 性 网 络 边 权重 符合 竖 律 分 布 ;@ 当 前 
牧 国 情报 学 研究 可 分 为 信息 组 织 与 检索 .文献 计量 与 
科 饮 评价 竞争 情报 与 知识 管理 .情报 学 学 科 整 体 研究 
4" 不 领域 ; 国 领域 作者 的 研究 兴趣 多 数 并 不 局 限于 一 
个 领域 ,而 是 分 布 于 多 个 研究 领域 ,同时 ,模糊 炉 越 大 
的 作者 ,其 发 文 量 也 更 多 ;@C1、C2 .C3 社 群 的 作者 均 
将 C4 社 群 作为 其 次 要 隶属 度 和 矩阵 ,说 明 该 社 群 与 其 他 
社 群 研究 较为 密切 ,存在 较 多 交叉 领域 ;@C2 与 C3 的 
作者 很 少将 彼此 作为 次 要 隶属 社 群 ,说 明 这 两 个 领域 
的 作者 研究 范式 差异 较 大 ,相互 间 交 流 较 少 。 

需要 注意 的 是 ,本 文 的 数据 来 源 受 CSSCI 收录 数 
据 的 限制 .作者 消 歧 和 选择 方法 还 存在 一 些 问题 。 未 
来 将 朝 着 以 下 几 个 方向 开展 研究 :D 现 有 作者 研究 兴 
趣 相似 性 计算 方法 有 待 改进 , 需 要 考虑 关键 词 之 间 的 
语义 关系 ,对 关键 词 多 词 一 义 的 情况 进行 合并 ;@ 将 时 
间 因素 考虑 进去 ,分 析 研 究 兴 趣 相似 性 网 络 动态 演化 
过 程 ;@ 探 索 更 为 准确 的 社 群 识别 方法 ,分 析 多 个 社 群 
间 信息 交流 与 合作 关系 ,扩展 研究 兴趣 相似 性 网 络 应 
用 范围 ;@ 从 引文 . 合 著 等 角度 探究 各 社 群 间 的 交流 与 


关联 。 
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Research on Community Membership Based on the Research Interest Similarity Network of Core Authors 
Taking the Domestic Field of Information Science as an Example 
Xu Jian' Mao Jin Ye Guanghui” Ba Zhichao Li Gang' 
! Center for Studies of Information Resources, Wuhan University, Wuhan 430072 
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Abstract: [Purpose/significance | This paper explores the community structure and community membership of the 
research interest similarity network of core authors in information science. | Method/process| We firstly download all pa- 
pers of information science retrieved in CSSCI database using the China Library Category number. By recognizing the core 
-authors in this discipline with Price law, we compute the similarity between each two authors with bag-of -words model and 
construct the research interest similarity network of core authors. Then we divide it into four research community. Finally, 
we compute the every author’s membership degree to different communities and his/her fuzzy entropy. [ Result/conclu- 
sion | We discover that the domestic information science discipline has four research field : information organization and re- 
triERal, bibliometrics and scientific evaluation, competitive intelligence and knowledge management, and the information 
sgtence. Most authors ”research isn’t limited to one field. Finally, the authors in C2 and C3 merely take each other as 
skceidary membership community, and it implies that the boundary between competitive intelligence and bibliometrics is 
vo obvious. 


Keywords: research interest network information science community membership degree similarity 
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